#API 定價
不想跟輝達玩了
我點開 DeepSeek 的 API 定價頁,想看看 V4 具體售價多少,結果在價格表下方看到一行灰色小字。字型特別小,不留意的話很容易直接劃走。上面寫著「受限於高端算力,目前 Pro 的服務吞吐十分有限,預計下半年昇騰 950 超節點批次上市後,Pro 的價格會大幅下調」。簡單來說,DeepSeek 把自己未來能不能降價、降多少,公開繫結到了華為昇騰 950 這顆晶片的出貨節奏上。早在 DeepSeek 正式發佈前,就有不少傳聞將它和昇騰關聯在一起,只是一直沒有實錘,現在來看,雙方的深度合作已經落地。所以,在我看來,這行不起眼的灰色小字,蘊含的關鍵資訊,比所有跑分加起來都大。想要看懂這行小字到底有多關鍵,得先弄懂一個技術細節;DeepSeek V4 訓練時,用了一種叫 mxFP4 的精度方案。這名詞聽著特別高大上,其實我也不懂啊。於是,索性瞭解了下,意思是:大模型有著上兆個參數,每個參數本質上是一串數字,這些數字全都要存放在晶片的儲存空間裡;行業裡普遍用的是 FP8 方案,靠 8 位位元記錄一個數字,FP4 隻需要 4 位位元就行。打個通俗的比方:FP8 就像用常規字號在 A4 紙上記筆記,一頁紙能承載的內容很有限,FP4 把字號縮小一半,同一張紙能裝下兩倍內容。雖說精細度稍微差一點,完全不影響正常識別和使用。我專門查過實測資料,FP4 對比 FP8,問答的精準度幾乎沒怎麼掉,日常使用的絕大多數場景裡,普通人完全感受不到區別,還能直接省下一半儲存空間。簡單講,FP4 的優勢,是更少的儲存空間,更低的計算成本,跑差不多效果的模型。搞懂 FP4 之後,接下來的事情有意思了。目前輝達的整個生態體系,主流用 FP8。國內晶片這邊,華為昇騰 950 是唯一一款已經商用、並且明確支援 FP4 的 AI 加速卡。重點是:唯一一款。DeepSeek V4 在訓練階段選了 FP4,昇騰 950 恰好是國內唯一支援 FP4 的晶片,這兩件事放在一起,不需要任何人告訴你結論。這根本不是模型做完再臨時去相容國產晶片,早在模型訓練起步階段,選擇精度規格的時候,已經專門為這顆晶片量身鋪路了。就像你設計一把鑰匙時,已經知道它要開的那把鎖長什麼樣。那 DeepSeek 為什麼要這麼做?單純立場問題,或是情懷加持?我覺得根本沒這麼簡單,畢竟它一直堅持開源,海外也有大量使用者在使用。本質上,背後有一筆實打實的商業帳單。要知道 DeepSeek 是開源企業,核心收入全靠 API 呼叫;它的核心打法是極致低價,V4-Flash 輸入只要 0.2 元每百萬 tokens,比 OpenAI 同檔次產品便宜幾十倍,妥妥的行業價格殺手。「價格屠夫」的名頭聽著亮眼,背後卻有個繞不開的硬性要求,那就是算力成本必須壓到極致。如果一直繫結輝達,兩大難題永遠躲不開:一,顯示卡造價昂貴,高昂的算力成本會直接壓縮利潤;二,供應鏈完全不受自己掌控,一旦相關管制收緊,隨時會被卡脖子。開源模型廠商利潤本來就十分微薄,這種盈利模式下,把核心算力命脈,攥在無法自主掌控的外部供應商手裡,無異於慢慢等死。所以,擁抱國產晶片是 DeepSeek 能持續走低價路線、長久活下去的核心關鍵。對了,這還沒完。V4 是周五上午發的,同一天之內,華為昇騰、寒武紀、海光資訊、摩爾線程率先官宣完成適配。到收盤前,加上沐曦、崑崙芯、平頭哥、天數智芯,一共 8 家國產 AI 晶片品牌全部完成「Day 0 適配」。Day 0,發佈當天就能跑。不光是晶片廠商,華為雲、騰訊雲、百度智能雲、阿里雲、天翼雲、聯想智能雲這些雲服務商,也在同一天宣佈把 V4 上架到自己的平台;寧暢、長江計算這些做伺服器的廠商,也跟著同步跟進。一個模型發佈,整條產業鏈當天就集體響應,這速度絕對不可能是看到發佈才開始動手的。你想啊,一個兆參數的全新模型,從拿到權重,到完成適配、跑通推理、測出性能資料,幾個小時根本不可能做完。那答案就只有一個了:這些廠商,早就提前拿到了 V4 的模型,早就開始做準備了。我查了一下,The Information 的報導也印證了這一點。DeepSeek 在 V4 發佈之前,特意給國產晶片廠商開了提前適配的窗口,給了他們好幾周的時間做偵錯、做最佳化,反倒是輝達和 AMD,沒拿到這個優先權。所以,你再回頭看周五那天的場面,它更像一場提前排練好的集體亮相。DeepSeek 是領唱,幾家晶片廠商是和聲,雲服務商和伺服器廠商是伴奏,所有人在同一天一起上台。以前聊 AI 產業鏈,基本上都沿著同一條線說:模型突破了,算力需求爆發,所以要建更多算力中心,需要更多晶片,輝達吃肉,台積電代工跟著喝湯,台積電產能不夠就得買裝置,半導體裝置是下一個主線。我承認,這條邏輯過去兩年完全成立,V4 這次釋放的訊號,是旁邊正在長出另一條鏈路。前面我說的,FP4 精度選擇、幾家晶片同天適配、雲服務商同步上架,串起來看,這條新鏈路的輪廓已經很清晰了。它的核心驅動力是「軟硬體從源頭協同設計」。堆量和協同,受益的方向幾乎沒有重疊,用舊地圖去找新鏈路上的機會,大機率會走偏。這件事的影響範圍還不止於「利多誰」。我查了一下,據路透社 3 月 27 日報導,字節跳動和阿里巴巴均計畫大規模採購昇騰 950,華為今年計畫出貨約 75 萬顆。國內財經媒體援引的資料更具體,字節約 25 萬顆,阿里約 15 萬顆,光這兩家加起來就 40 萬顆,佔了全年出貨計畫的一半以上。需要說明,這組採購數字,幾家當事方既沒有回應、也沒有承認,晶片採購量級本身屬於高度敏感的商業資訊,不公開確認是正常的。因為供需關係的變化,昇騰 950 已經漲價 20%,這些訂單在 V4 發佈之前就已經下了。這裡有一個很微妙的關係,大廠們買了晶片,準備用國產算力來跑大模型、做雲服務。這個商業決策最終成不成立,取決於一個前提:得有一個足夠強的模型,在這顆晶片上真的跑通了,效果經得起驗證。V4,正是那個驗證。它是整個國產算力產業鏈的一張驗收單,驗收通過,40 萬顆晶片的訂單才有意義,後續更大規模的採購才有依據。當然,這件事也沒有那麼完美,不能為了吹捧忽略客觀事實。訓練側,V4 最核心預訓練過程,仍然跑在輝達的體繫上,國產晶片目前接住的是推理側,使用者實際呼叫模型時的那部分算力。訓練和推理是兩件事,推理跑通了不代表訓練也能脫離輝達。昇騰 950 的產能也是另一個未知數,全年 75 萬顆的出貨計畫,光字節和阿里兩家就要走一半以上,後面排隊的還有騰訊、百度和一眾中小廠商;供不應求的局面下,產能能不能跟上,直接決定這條新鏈路的傳導速度。換句話說,閉環在推理側跑通了,訓練側還要時間。我認為,看這件事得看方向,過去幾年,中國 AI 產業的底色一直是「用別人的晶片,追別人的模型」;V4 釋放的訊號不一樣,有人開始用自己的晶片跑自己的模型了,晶片和模型從一開始就在一起長。路還很長,產能瓶頸、訓練側的硬骨頭、CUDA 生態十幾年積累的護城河,這些都是真的;當然,中國 AI 第一次在頂級模型層面跑通國產算力閉環,這也是真的。 (王智遠)